情報・システム工学概論
統計モデルの数理
—
第1回:統計モデルの考え方—
駒木 文保 工学部 計数工学科
2018
年10
月29
日物理モデルと統計モデル
(広い意味の)物理モデル
▶
ニュートンの運動方程式,マクスウェルの方程式,シュレディンガー方程式
,
...▶
回路,制御,...▶
ロトカ・ヴォルテラ方程式,ホジキン・ハックスレー方 程式,...微分方程式を用いたモデルが多い 統計モデル
不確実な現象のモデリング 比較的新しいパラダイム
統計的モデリングの考え方の発展については,例えば
(日本語訳の文庫本)などが参考になる.
簡単な統計モデル1 2項分布モデル
θ:
コイン投げで表の出る確率x:
コインをN
回 投げたとき表の出る回数(
確率変数) x
のしたがう確率分布:
2項分布Bin(N, θ)
P (x; θ) = ( N
x )
θ
x(1 − θ)
N−x.
[
3[ | lj
0 1 2
0.00.250.50
コインの表の出る回数の確率
P(x; θ), N = 2, θ = 1/2
ゆがんでいないコインであれば,
θ =
12コインの歪んでいるとき,
θ ∈ [0, 1]
の値は正確にはわからない.θ:
パラメータ未知であることを強調して,未知パラメータともいう 2項分布
Bin(N, θ)
全体:
パラメータθ
をもつ2項分布モデル パラメータを変えて得られる確率分布全体を(パラメトリック な)統計モデルと呼ぶ.x
が観測されたとき,θ
についてどのようなことがいえるのか.簡単な統計モデル2 正規分布モデル
正規分布
N(0, 1)
(0
は平均, 1
は分散)x
p(x)
-4 -2 0 2 4
0.00.20.4
正規分布
N(0, 1)
の確率密度関数.平均
µ,
分散σ
2 の正規分布N(µ, σ
2)
の確率密度関数p(y ; µ, σ
2) = 1
√ 2πσ
2exp {
− 1
2σ
2(y − µ)
2}
.
最も基本的で重要な分布 中心極限定理
▶
人間の身長の分布は正規分布でよく近似できるいろいろな正規分布
x
p(x)
-5 0 5 10 15
0.0 0.4 0.8
N(0,1)
N(5,4)
N(10,0.25)
N(0, 1), N(5, 4), N(10, 0.25)
.µ, σ:
パラメータ正規分布
N(µ, σ
2)
全体:
パラメータµ, σ
2 をもつ統計モデル 物体の長さをある装置を使って測定µ
0:
物体の真の長さε:
装置の測定誤差測定の結果得られる観測値
µ
0+ ε
測定誤差ε
の分布N(0, σ
02)
測定の結果得られる観測値の分布:
正規分布
N(µ
0, σ
20)
(真の分布)実際に測定を行う人は
µ
0 の値を知らない.装置の性能も分からない場合には
σ
20 の値も未知.正規分布モデル
N(µ, σ
2)
を仮定して,µ
0 とσ
02 を推定 物体の長さと装置の測定誤差がわかる.回帰モデル
データ:
N
人についての身長と体重を組にした測定値.
データをもとにして,身長から体重を予測したい.回帰モデルの応用は非常に広い.
一般的な傾向として身長の高い人ほど体重も重い傾向.
身長を
x
,体重をy
としてy = bx + c + ε, ε ∼ N(0, σ
2)
の直線状の関係を仮定してデータを解析.
ε
は平均0,
分散σ
2 の正規分布N(0, σ
2)
にしたがう確率変数.ε
により,同じ身長のひとでも体重が違うことをモデル化できる.未知パラメータは
b, c , σ
.b > 0
ならば,身長が増えると体重も増える傾向をもつ.データから
b c σ
の推定値b, ˆ ˆ c , ˆ σ
を得ることにより,身長と体 重の関係式y = ˆ bx + ˆ c + ε, ε ∼ N(0, ˆ σ
2)
を利用して,身長から体重が予測できる.回帰モデル.身長と体重の仮想的なデータのプロットと,データ に当てはめた直線
y = ˆ bx + ˆ c
.マルコフ連鎖モデル
簡単のために,天気に晴と雨しか無いと仮定
.
第
n
日目が晴であればX
n= 0,
雨であればX
n= 1
と表す.確率変数の列
X
0, X
1, X
2, . . .
を考える.p:
晴れた日の翌日に晴れる確率,
(晴れた日の翌日に雨が降る確率は
1 − p
),q:
雨が降った日の翌日に晴れる確率,
(雨が降った日の翌日に雨が降る確率は
1 − q
) マルコフ連鎖と呼ばれるモデルのクラスの簡単な例.p, q:
モデルのパラメータ.過去のデータから
p
とq
の推定値p, ˆ ˆ q
を構成して,今日の天気 から明日の天気が予測できる.マルコフ連鎖モデルを一般化した隠れマルコフモデルは音声認識 やアミノ酸配列・塩基配列の解析(遺伝子解析)等で広く利用さ れる.
マルコフ連鎖は1次元の構造をもっている.これを多次元に拡張 したマルコフ場モデルは,画像解析や空間統計学などで利用さ れる.
x
0x
1x
2x
N-1x
Nマルコフ連鎖
ベイジアンネットワーク
マルコフ連鎖は1次元の構造をもつ.
ベイジアンネットワーク,グラフィカルモデル,
確率ニューラルネットワーク
多くの確率変数が影響を及ぼし合うことを考慮したモデル
簡単な例 (Cowell 他 , 1999)
計算機が動作しないときに考えられる2つの原因
停電
or
計算機故障二つとも原因として考えらえるが,室内の照明も点灯しなければ,
原因が停電である可能性が高くなる.
X
1:
停電であるかないかX
2:
計算機が故障しているかいないかX
3:
照明が点灯するかしないかX
4:
計算機が動作するかしないか それぞれ1
か0
かで表す.確率変数
X
1, X
2, X
3, X
4 が互いに影響を及ぼしあっている程度を 数値化して,パラメトリックな統計モデルを構築.このモデルを利用することにより,計算機の故障の原因に関する 推論が自動的にできる.
このような統計モデルは,人工知能,パターン認識,データ圧縮,
符号理論などの分野で利用される.
ベイジアンネットワーク
統計モデルのパラメータ推定
統計モデルのうちで最も簡単な正規分布モデル
N(µ, τ )
を考える.以下,
σ
2 をτ
と書き換える.真の分布
p
0(y)
にしたがうデータx
1, x
2, . . . , x
n が得られたとき,データを基にして,なるべく真のパラメータ
µ
0, τ
0 に近い推定値ˆ
µ, τ ˆ
を得たい.p
0(y )
をよく近似するp(y; ˆ µ, τ ˆ )
をデータに基づいて選ぶことは,パラメータ推定と呼ばれる重要な問題.
最尤推定
:
さまざまな統計モデルに応用できるパラメータ推定法Kullback–Leibler ダイバージェンス
推定の良さを評価するためには真の分布の確率密度関数
p
0(y)
と 推定した確率密度関数p (y; ˆ µ, ˆ τ )
との近さを評価する必要がある.定義.確率密度関数
p(y)
からq(y)
へのKullback–Leibler
ダイ バージェンス(相対エントロピーとも呼ばれる)D(p, q) =
∫
p(y) log p(y) q(y) dy
p(y), q(y)
がどのくらい離れているかを表す.統計学や情報理論で本質的な役割を果たす
.
重要!
例
.
正規分布N(µ
1, τ
1)
からN(µ
2, τ
2)
へのKullback-Leibler
ダイ バージェンスD(p(y ; µ
1, τ
1), p(y; µ
2, τ
2)) = 1 2
{( τ
1τ
2− log τ
1τ
2− 1 )
+ 1 τ
2(µ
1− µ
2)
2}
.
Kullback-Leibler
ダイバージェンスは非負の量で,p = q
のときの み0
になるという距離に似た性質を持つ.距離の公理は満たさない.
D(p, q) = D(q, p)
は成立しない.真の分布
p
0(y)
から推定した分布p (y; ˆ µ, ˆ τ )
へのKullback-Leibler
ダイバージェンスD(p
0(y), p(y ; ˆ µ, τ ˆ ))
を最小にするµ, ˆ ˆ τ
を選ぶことができれば良い.p
0(y )
は未知なので工夫が必要.真の分布
p
0(y)
からモデルに属する分布p(y; µ, τ )
へのKullback-Leibler
ダイバージェンスをD(p
0(y), p(y; µ, τ )) =
∫
p
0(y) log p
0(y) p(y; µ, τ ) dy
=
∫
p
0(y) log p
0(y)dy −
∫
p
0(y) log p(y; µ, τ )dy
のように変形.第1項はパラメータの値によらない項なので,
D(p
0, p (y; µ, τ ))
を最小化することは∫
p
0(y) log p(y; µ, τ )dy
を最大化することに帰着.∫ p
0(y) log p(y; µ, τ )dy
はlog p(y ; µ, τ )
のp
0 に関する期待値.真の分布
p
0(y)
はわからないため,p
0 に関する期待値をデータ,x
1, x
2, . . . , x
n に対する平均1 n
∑
n i=1log p(x
i; µ, τ )
におきかえる.
この量は対数尤度関数(パラメータ
µ, τ
の関数とみなす)と呼ば れるものになっている.これを最大化する
µ, τ
の値µ, ˆ ˆ τ
が 最尤推定量.パラメータ
µ, τ
の最尤推定量µ, ˆ τ ˆ
の具体的な形はˆ
µ =
∑
ni=1
x
in , τ ˆ =
∑
ni=1
(x
i− µ) ˆ
2n .
最尤推定はさまざまなモデルに対して汎用的に用いることのでき る推定法.
複雑な統計モデルに対して,最尤推定量を求めるためには計算機 を利用した最適化手法の利用が必要.
モデル選択
統計的モデルを利用したデータ解析を行う場合,最初からひとつ のモデルが特定できていることは少ない.
いくつかのモデルの候補のうちから一番よいと思われるモデルを 選択するのが普通.
どのようにしてモデルを選択するのかは統計的手法を利用する際 の重要な問題.
▶
データの特性を忠実に表現するにはある程度複雑なモデルを 利用することが必要.▶
あまり複雑なモデルを採用するとパラメータの推定の精度が おちる.赤池情報量規準 (Akaike’s Information Criterion, AIC)
データに基づいて適切なモデルを選択するための規準 定義
AIC = −2 ×
モデルの最大対数尤度+ 2 ×
モデルのパラメータ数.
最大対数尤度が大きければモデルがデータに良く当てはまってい ることになる.▶
モデルを複雑にすると第1項は小さくなる(最大対数尤度は 大きくなる).▶
モデルを複雑にするとモデルのパラメータ数が大きくなる.AICを小さくするモデルを選ぶことにより,データに対するあ てはまりの良さとモデルの複雑さとのバランスをとる.
google ロゴ (2017 年 11 月 5 日 )
Hirotugu Akaike’s 90th Birthday
https://www.google.com/doodles/hirotugu-akaikes-90th-birthday
例.多項式回帰モデル
y
i, i = 1, 2, . . . , N:
正規分布N(f (x
i), σ
2)
にしたがう観測値. f (x):
なめらかな関数でσ
2 とともに未知.k
次多項式回帰モデルy
i= a
0+ a
1x
i+ a
2x
i2+ · · · + a
kx
ik+ ε
i, ε
ii.i.d. ∼ N(0, σ
2)
を仮定して解析する.f (x)
は高次の多項式を使えば原理的にはいくらでも精密に近似で きる.高次の多項式を使うと推定するパラメータ
a
0, a
1, . . . , a
k, σ
2 の数 が多くなり,観測値の数が限られているので,パラメータ推定の 精度が悪くなる⇒ f (x)
の近似は必要以上に高次のモデルを利用するとかえって 悪くなる.数値例:
f (x) = sin x, σ = 0.3
f (x)
を1 ∼ 5
次の多項式モデルを用いて推定.実線:真の
f (x),
点線:2
次式を用いた推定結果実線:真の
f (x),
点線:4
次式を用いた推定結果参考文献
Salsburg, D. S. (2010)
統計学を拓いた異才たち,竹内・熊谷訳,日本経済新聞出版社
Cowell, R. G., Dawid, A. P., Lauritzen, S. L., Spiegelhalter, D. J. (1999) Probabilistic Networks and Expert Systems, New York: Springer-Verlag.
坂元慶行・石黒真木夫・北川源四郎
(1983)
情報量統計学,共立 出版.小西貞則,北川源四郎